SCSU

SCSU(英語: Standard Compression Scheme for Unicode)はUnicodeのテキストを表すために必要なバイト数を削減するためのUnicode技術標準である[1]。特にテキストが1つまたは少数の言語ごとの文字ブロックの文字をほとんど使用している場合に用いられる。128以上255以下の範囲の値を128文字の特定のブロック内のオフセットに動的にマッピングすることにより行なわれる。符号化器の初期状態は、NULLやTAB、CR、LF以外のC0制御文字を含まないASCII、およびISO-8859-1の既存の文字列をSCSU文字列として処理する。ほとんどのアルファベットは隣接するUnicode符号点のブロックに存在するため、アルファベットの小文字とASCII句読点、またはアルファベットの大文字の枠内に収まる句読点が用いられたテキストは1文字につき1バイトで符号化できる。他のほとんどの句読点は、非ロックシフトを介して1文字あたり2バイトで符号化できる。SCSUは、アルファベット以外の言語を処理するために内部でUTF-16に切り替えることもできる。

携帯電話やその他のモバイルデバイス用のオペレーティングシステムであるSymbian OSは、SCSUを使用して文字列をシリアル化する。

CSUの最初の提案を公開した組織はロイターであり、内部でSCSUを使用していると考えられている。

SQL Server 2008 R2はSCSUを使用して、nchar(n)列とnvarchar(n)列に格納されているUnicodeの値を圧縮し、データの言語に応じて15%から50%の領域を節約している[2]

  1. ^ Stabilized Technical Report”. www.unicode.org. 2020年6月18日閲覧。
  2. ^ Archiveddocs. “Unicode Compression Implementation” (英語). docs.microsoft.com. 2020年6月18日閲覧。

© MMXXIII Rich X Search. We shall prevail. All rights reserved. Rich X Search